序列建模导论：数据、顺序与时间动态

在人工智能领域，序列建模将关注点从静态快照转向时间流。标准机器学习任务通常假设数据点是 独立同分布（IID），即样本的顺序不会影响结果。

序列建模明确拒绝这一假设，聚焦于三大核心支柱：

违反排列不变性：在表格数据中，列的顺序是任意的。而在序列中，顺序是首要特征。将“猫吃了老鼠”改为“老鼠吃了猫”，尽管词元相同，但会彻底改变 语义基础事实 ，这表明顺序至关重要。
自回归特性：我们假设时间 $t$ 的观测值在数学上依赖于其历史（$t-1, t-2, \dots, 1$）。这要求引入转移概率来捕捉信息的演化过程。
可变长度映射：与固定的 28×28 像素网格不同，句子或地震波等序列是 可伸缩的。模型必须以一致的参数处理长度为 $N$ 的输入并生成长度为 $M$ 的输出。